Processing math: 100%
  • 1 Doel
  • 2 Voorbeeld
  • 3 Data importeren
  • 4 Hypothesen
  • 5 Data verkennen
  • 6 Keuze toets
  • 7 Significantieniveau
  • 8 Toets
  • 9 Conclusie



Op deze pagina wordt een statistische techniek gedemonstreerd aan de hand van een voorbeeld. Meer informatie over hoe je deze pagina kan gebruiken vind je in deze handleiding.

De analyse gebeurt met behulp van R en RStudio. Een inleiding tot deze software vind je hier.


1 Doel

Met deze techniek kan je nagaan of een verwachting in een populatie verschillend is van een vooropgestelde waarde.


2 Voorbeeld

Onderzoekers meten de variabele jobtevredenheid (X) aan de hand van een vragenlijst. Deze variabele kan elke waarde aannemen van 0 tot 100.

Uit een recent grootschalig onderzoek is gebleken dat Belgen gemiddeld 58 scoren. Je vraagt je af of leerkrachten in het lager onderwijs hoger scoren dan 58.

Je verzamelt gegevens om een antwoord te kunnen formuleren. Daarvoor trek je een steekproef van 54 leerkrachten in het lager onderwijs.


3 Data importeren

De data bij dit voorbeeld kan je met het onderstaande commando importeren in R.

mijn_data <- read.csv("https://statlas.ugent.be/datasets/tevredenheidsstudie.csv")


Inspecteer de data met de functie str().

str(mijn_data)
'data.frame':   54 obs. of  6 variables:
 $ leeftijd       : int  85 56 18 51 60 31 76 68 38 71 ...
 $ geslacht       : chr  "M" "M" "M" "V" ...
 $ jobtevr        : int  55 55 59 69 48 65 63 69 58 63 ...
 $ familietevr    : int  50 72 50 64 62 60 67 45 82 48 ...
 $ vrije.tijd.tevr: int  50 52 49 54 58 50 61 47 48 65 ...
 $ gezond.tevr    : int  66 62 57 67 51 58 60 60 66 62 ...


Het object mijn_data bevat een dataframe met alle gegevens. In dit voorbeeld hebben we enkel de variabele jobtevredenheid nodig. Die kan je apart selecteren uit het dataframe en in een nieuw object stoppen.

jobtevr <- mijn_data$jobtevr



4 Hypothesen

De hypothesen die bij deze toets horen zijn:

H0:μX=μ0, in dit geval μX=58 Ha:μX>μ0, in dit geval μX>58


Dit is een eenzijdige toets. Meer uitleg over eenzijdig versus tweezijdig toetsen vind je hier.


De verwachting van de jobtevredenheid onder H0 kan je ook als een object in R opslaan.

mu_0 <- 58



5 Data verkennen

Met de functie summary() kan je snel een overzicht van een variabele krijgen.

summary(jobtevr)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  48.00   56.00   59.00   60.57   64.75   74.00 


Met de functie mean() is het eenvoudig om afzonderlijk het gemiddelde van de variabele jobtevredenheid in de steekproef van 54 leerkrachten te berekenen.

mean(jobtevr)
[1] 60.57407


Deze waarde is wat groter dan 58. Met een statistische toets zal je nagaan of het geloofwaardig is dat deze afwijking louter aan toeval te wijten is.


Een visuele samenvatting van jobtevr kan je bekomen door een boxplot te tekenen.

boxplot(jobtevr)



6 Keuze toets

Je toetst of een verwachting μX groter is dan een gegeven waarde. De populatievariantie σ2X is niet gekend. Je kiest dus voor een t-toets voor één verwachting.

Assumpties

Om een t-toets voor één verwachting te kunnen gebruiken moet voldaan zijn aan volgende assumpties:

  • X moet tenminste van intervalniveau zijn. Dat is het geval in dit voorbeeld.

  • X moet een normale verdeling volgen of de steekproef moet voldoende groot zijn. Over de verdeling van de variabele is geen informatie gegeven, maar visuele inspectie met qqnorm() leert je dat de verdeling min of meer normaal is. Hier is bovendien de steekproefgrootte n=54. De vuistregel is dat n30 moet zijn, dus aan deze voorwaarde is zeker voldaan.

    qqnorm(jobtevr)



7 Significantieniveau

Vóór je de toets uitvoert dien je een significantieniveau α te kiezen.

alpha <- 0.10



8 Toets

De t-toets kan je uitvoeren met de functie t.test():

t.test(jobtevr, mu=mu_0, alternative="greater", conf.level=1-alpha)

    One Sample t-test

data:  jobtevr
t = 3.0099, df = 53, p-value = 0.001998
alternative hypothesis: true mean is greater than 58
90 percent confidence interval:
 59.46425      Inf
sample estimates:
mean of x 
 60.57407 


Beslissing

Je stelt vast dat de overschrijdingskans p=0.0019977 kleiner is dan de waarde voor α die eerder is vastgelegd, namelijk α=0.1. Hieruit concludeer je dat je de nulhypothese moet verwerpen op het 10% significantieniveau.

Je kan tot dezelfde conclusie komen aan de hand van het betrouwbaarheidsinterval. Je stelt vast dat de waarde 58 zich niet in het 90% betrouwbaarheidsinterval [59.4642472,[ bevindt. De nulhypothese, die stelt dat de verwachting bij leerkrachten gelijk is aan 58, is dus niet compatibel met de geobserveerde data. Je verwerpt bijgevolg de nulhypothese op het 10% significantieniveau.



9 Conclusie

Je verwerpt de nulhypothese op het 10% significantieniveau.